Although DETR-based 3D detectors can simplify the detection pipeline and achieve direct sparse predictions, their performance still lags behind dense detectors with post-processing for 3D object detection from point clouds. DETRs usually adopt a larger number of queries than GTs (e.g., 300 queries v.s. 40 objects in Waymo) in a scene, which inevitably incur many false positives during inference. In this paper, we propose a simple yet effective sparse 3D detector, named Query Contrast Voxel-DETR (ConQueR), to eliminate the challenging false positives, and achieve more accurate and sparser predictions. We observe that most false positives are highly overlapping in local regions, caused by the lack of explicit supervision to discriminate locally similar queries. We thus propose a Query Contrast mechanism to explicitly enhance queries towards their best-matched GTs over all unmatched query predictions. This is achieved by the construction of positive and negative GT-query pairs for each GT, and a contrastive loss to enhance positive GT-query pairs against negative ones based on feature similarities. ConQueR closes the gap of sparse and dense 3D detectors, and reduces up to ~60% false positives. Our single-frame ConQueR achieves new state-of-the-art (sota) 71.6 mAPH/L2 on the challenging Waymo Open Dataset validation set, outperforming previous sota methods (e.g., PV-RCNN++) by over 2.0 mAPH/L2.
translated by 谷歌翻译
Graph neural networks (GNNs) are popular weapons for modeling relational data. Existing GNNs are not specified for attribute-incomplete graphs, making missing attribute imputation a burning issue. Until recently, many works notice that GNNs are coupled with spectral concentration, which means the spectrum obtained by GNNs concentrates on a local part in spectral domain, e.g., low-frequency due to oversmoothing issue. As a consequence, GNNs may be seriously flawed for reconstructing graph attributes as graph spectral concentration tends to cause a low imputation precision. In this work, we present a regularized graph autoencoder for graph attribute imputation, named MEGAE, which aims at mitigating spectral concentration problem by maximizing the graph spectral entropy. Notably, we first present the method for estimating graph spectral entropy without the eigen-decomposition of Laplacian matrix and provide the theoretical upper error bound. A maximum entropy regularization then acts in the latent space, which directly increases the graph spectral entropy. Extensive experiments show that MEGAE outperforms all the other state-of-the-art imputation methods on a variety of benchmark datasets.
translated by 谷歌翻译
在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
在过去的十年中,AI AID毒品发现(AIDD)的计算方法和数据集策划的繁荣发展。但是,现实世界中的药物数据集经常表现出高度不平衡的分布,这在很大程度上被当前的文献忽略了,但可能会严重损害机器学习应用程序的公平性和概括。在这一观察结果的激励下,我们介绍了Imdrug,这是一个全面的基准标准,其开源python库由4个不平衡设置,11个AI-Ready数据集,54个学习任务和16种为不平衡学习量身定制的基线算法。它为涵盖广泛的药物发现管道(例如分子建模,药物靶标相互作用和逆合合成)的问题和解决方案提供了可访问且可定制的测试床。我们通过新的评估指标进行广泛的实证研究,以证明现有算法在数据不平衡情况下无法解决药物和药物挑战。我们认为,Imdrug为未来的研究和发展开辟了途径,在AIDD和深度不平衡学习的交集中对现实世界中的挑战开辟了道路。
translated by 谷歌翻译
从单眼图像中学习的自我监督深度学习通常依赖于暂时相邻图像帧之间的2D像素光度关系。但是,他们既没有完全利用3D点的几何对应关系,也没有有效地应对闭塞或照明不一致引起的光度扭曲中的歧义。为了解决这些问题,这项工作提出了密度量构建网络(DEVNET),这是一种新型的自我监管的单眼深度学习框架,可以考虑3D空间信息,并利用相邻的相机flustums中的更强的几何约束。我们的DEVNET不是直接从单个图像中回归像素值,而是将摄像头划分为多个平行的平面,并预测每个平面上的点闭塞概率密度。最终的深度图是通过沿相应射线集成密度来生成的。在训练过程中,引入了新颖的正则化策略和损失功能,以减轻光度歧义和过度拟合。如果没有明显放大的模型参数的大小或运行时间,DEVNET在Kitti-2015室外数据集和NYU-V2室内数据集上均优于几个代表性基准。特别是,在深度估计的任务中,在Kitti-2015和NYU-V2上,DEVNET均减少了4%的根平方。代码可在https://github.com/gitkaichenzhou/devnet上找到。
translated by 谷歌翻译
由于传统经验风险最小化(ERM)的概括性差,因此在分布转移的情况下,分布(OOD)概括算法受到越来越多的关注。但是,OOD的概括算法忽略了训练数据质量的巨大差异,这极大地损害了这些方法的准确性。在本文中,我们从理论上揭示了训练数据质量和算法性能之间的关系,并分析了Lipschitz正则不变风险最小化的最佳正则化方案。提出了一种基于理论结果提出的新算法,以减轻样品水平和域水平上低质量数据的影响。关于回归和分类基准的实验验证了我们方法具有统计学意义的有效性。
translated by 谷歌翻译
自主驾驶的当代深度学习对象检测方法通常会假定前缀类别的共同交通参与者,例如行人和汽车。大多数现有的探测器无法检测到罕见的物体和拐角案例(例如,越过街道的狗),这可能会导致某些情况下发生严重的事故,从而使真实世界应用可靠的自动驾驶不确定。阻碍了真正可靠的自动驾驶系统发展的主要原因是缺乏评估对象探测器在角案例上的性能的公共数据集。因此,我们介绍了一个名为CODA的具有挑战性的数据集,该数据集揭示了基于视力的检测器的关键问题。该数据集由1500个精心选择的现实世界驾驶场景组成,每个场景平均包含四个对象级角案例(平均),涵盖30多个对象类别。在CODA上,在大型自动驾驶数据集中训练的标准对象探测器的性能显着下降到3月的12.8%。此外,我们试验了最新的开放世界对象检测器,发现它也无法可靠地识别尾声中的新对象,这表明对自主驾驶的强大感知系统可能远离触及。我们希望我们的CODA数据集有助于对现实世界自动驾驶的可靠检测进行进一步的研究。我们的数据集将在https://coda-dataset.github.io上发布。
translated by 谷歌翻译
将钢筋学习(RL)扩展到推荐系统(RS)是有希望的,因为最大化RL代理的预期累积奖励达到了RS的目标,即提高客户的长期满意度。该目标的关键方法是离线RL,旨在从记录数据中学习政策。但是,商业RS中的高维操作空间和非平稳动态加剧了分配转移问题,这使得将离线RL方法应用于Rs是具有挑战性的。为了减轻从静态轨迹提取RL策略的动作分配转移问题,我们提出了基于不确定性的离线RL算法的价值惩罚Q学习(VPQ)。它通过不确定性的权重来惩罚回归目标中不稳定的Q值,而无需估计行为政策,适用于拥有大量项目的RS。我们从Q-功能合奏的方差中得出惩罚权重。为了减轻测试时间的分配转移问题,我们进一步介绍了评论家框架,以将拟议方法与经典RS模型相结合。在两个现实世界数据集上进行的广泛实验表明,该方法可以用作现有RS模型的增益插件。
translated by 谷歌翻译
数据增强已广泛用于图像数据和语言数据,但仍然探索图形神经网络(GNN)。现有方法专注于从全局视角增强图表数据,并大大属于两个类型:具有特征噪声注入的结构操纵和对抗训练。但是,最近的图表数据增强方法忽略了GNNS“消息传递机制的本地信息的重要性。在这项工作中,我们介绍了本地增强,这通过其子图结构增强了节点表示的局部。具体而言,我们将数据增强模拟为特征生成过程。鉴于节点的功能,我们的本地增强方法了解其邻居功能的条件分布,并生成更多邻居功能,以提高下游任务的性能。基于本地增强,我们进一步设计了一个新颖的框架:La-GNN,可以以即插即用的方式应用于任何GNN模型。广泛的实验和分析表明,局部增强一致地对各种基准的各种GNN架构始终如一地产生性能改进。
translated by 谷歌翻译
旨在促进现实世界,不断发展和可扩展的自主驾驶系统,我们展示了一个大规模数据集,用于通过从原始数据学习来标准化不同自我监督和半监督方法的评估,这是第一和最大的数据集到期。现有的自主驱动系统严重依赖于“完善”视觉感知模型(即,检测)使用广泛的注释数据培训,以确保安全性。然而,在部署强大的自动驾驶系统时,精致地标记所有情景和环境的实例(即夜,极端天气,城市)是不现实的。最近的自我监督和半监督学习的推进激励,希望通过协作利用大规模未标记的数据和少数标记数据来学习强大的检测模型。现有数据集只提供少量数据或涵盖具有完整注释的有限域,妨碍大规模预训练模型的探索。在这里,我们发布了一个大型2D自主/半监控的对象检测数据集,用于自动驾驶,名为SODA10M,其中包含1000万个未标记的图像和标有6个代表对象类别的20K图像。为了提高多样性,在不同天气条件下的27833个驾驶时间内收集图像,32个不同城市的时期和位置场景。我们提供广泛的实验和对现有的流行自主/半监督方法深度分析,并在自动驾驶范围内给出一些有趣的调查结果。实验表明,SODA10M可以作为不同的自我监督学习方法作为有前途的预训练数据集,这在微调驾驶域中的不同下游任务(即检测,语义/实例分段)进行微调时提供了卓越的性能。更多信息可以参考https://soda-2d.github.io。
translated by 谷歌翻译